このページは私用WordPressの覚え書き兼、テストページです。
「SNSボタン」は、テスト検証用に仮設置しているだけなので、押しても反応しません。

026 検索エンジン用のファイル(robots.txt)

(※WordPress覚書メモ この記事は、過去に書いた記事の再アップです)


無くても問題ないのですが、
余分なファイルまで検索しないように制御する、検索エンジン用のファイルがあるそうです。


検索エンジン用のファイルを作成してみる(サンプル1)

User-Agent: *
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Allow: /
Sitemap: http://example.com/sitemap.xml

↑このように記述して「robots」という名前で、テキスト形式で保存します。

拡張子は .txt
この robots.txtファイルは、サイトのトップに置かなければいけません。

○ http://www.xxxxxx.com/robots.txt
× http://www.xxxxxx.com/~hanako/robots.txt


上記 robots.txtファイル に記述した内容は、
全検索エンジンのインデックスを許可、ログインページと本体、テーマファイル等はインデックスさせない、というものです。


(サンプル2)すべてのファイルの登録を禁止

User-agent: *
Disallow: /

 ↑ 上記は、すべて(*)のロボットに対して、/ ではじまるファイル(つまりはすべてのファイル)を検索データベースに登録することを禁止する という記述です。


(サンプル3)goo と Google に対してのみ特定のフォルダを禁止

例えば、goo と Google に対してのみ、/himitsu と /cgi-bin の下のファイルを検索させないようにするには、次のようにします。

User-agent: moget
Disallow: /himitsu/
Disallow: /cgi-bin/

User-agent: Googlebot
Disallow: /himitsu/
Disallow: /cgi-bin/


(サンプル4)ディレクトリ名の後にスラッシュを入力すると、junkのディレクトリとその中身をすべてブロック

 ↓ /junk/のように、ディレクトリ名の後にスラッシュを入力すると、
   junkのディレクトリとその中身をすべてブロックするという意味になります。
特定のページをブロックするにはファイル名を書きます。末尾にスラッシュはいりません。

User-agent: *
Disallow: /junk/	// 該当のディレクトリとその中身をすべてブロック
Disallow: /private_file.html		// 該当のhtmlファイルのみをブロック


(サンプル5)特定の画像をブロック

Google 画像検索から特定の画像を削除するには、次のようにします。

User-agent: Googlebot-Image
Disallow: /images/xxxx.jpg


(サンプル6)すべての画像をブロック

Google 画像検索からサイトのすべての画像を削除するには、次のようにします。

User-agent: Googlebot-Image
Disallow: /


参考サイト → robots.txtの書き方と効果的な活用法